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Обо мне 


Никита, разработчик ClickHouse. 
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Мотивация 


Кластер Яндекс.Метрики расположен на 500 серверах 
В таблице visits хранятся сессии пользователей. 


Это -ТОРВ данных в сжатом виде. “ІООРВ в несжатом. 


Кластер не эффективен. Железо мощное и разное. 


Нужно заменить железо на новое и снизить его количество. 


Для этого нужно перенести все данные... 
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Как скопировать данные? 


Перенести данные сервера с одной машины на другую "руками" 
Используя встроенную функциональность 


Используя встроенную утилиту clickhouse-copier 
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Как ClickHouse хранит даннме 


$ tree -/ClickHouse/db/ -а -C -L 1 
Б- config.d 
— data 
— dictionaries lib 
— flags 
— metadata 
— preprocessed configs 


— store 


L— users.d 
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Как ClickHouse хранит даннме 


Создадим базу с именем higload2021 


CREATE DATABASE IF NOT EXISTS highload2021; 
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Зайдем в папку metadata и увидим там два новьх файла: highload2021 n 
highload2021.sg] 


91.95 file highload2021* 
highload2021: symbolic link to 


-/ClickHouse/db/store/bbd/bbdc8089-53c8-4d4a-9275-90f61bca08d5 
highload2021.sql: ASCII text 


02.L $ cat highload2021.sql 


ATTACH DATABASE | UUID 'bbdc8089-53c8-4d4a-9275-909£61bca08d5' 
ENGINE = Atomic 
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Создадим в нашей базе таблицу 


01. GREATE TABLE highload2021.participants(name String) 
ЕМСІМЕ-МегдеТгее() ORDER BY tuple(); 


02.L $ cat participants.sql 
ATTACH TABLE | UUID '26d1862a7-891f-4a87-a502-abda5a8fb028' ( 
“пате String ) 
ENGINE = MergeTree 
ORDER BY tuple() 
SETTINGS index_granularity = 8192 


Теперь в папке higload2020 появился файл с метаданными таблицы 
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Вставим данные в таблицу: 


INSERT INTO highload2021.participants 
VALUES ('Oleg Bunin'), ('Alexey Milovidov'); 


Посмотрим, куда сохранились данные нашей таблицы. 


$ file -/ClickHouse/db/data/highload2021/participants 
-/ClickHouse/db/data/highload2021/participants: symbolic link to 
-/ClickHouse/db/store/26d/26d186a7-891f-4a87-a502-abda5a8fb028 
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Пройдем по symbolic link и увидим привычную директорию с данными 

для *МегдеТгее-таблиц 

$ tree -L 2 -/ClickHouse/db/store/26d/26d186a7-891f-4a87-a502-abda5a8fb028 
— all 119 

| — checksums.txt 

| — columns.txt 

| Б- count.txt 

| — data.bin 

| |— data.mrk3 

| L— default compression codec.txt 
— detached 

L— format version.txt 


2 directories, 7 files 
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Инструкция: 


Ознакомиться со структорой папок на сервере А. 
Скопировать все файлы на сервер В и "руками" сделать symbolic links. 


Перезапустить сервер В. Поскольку инициализация таблиц происходит 
на старте. 
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Подводные камни: 


1) Сервер может быть сконфигурирован с multi- volume storage, причем 


конфигурация сервера А может отличаться от конфигурации сервера В. 


2) Версии серверов А и В могут сильно отличаться. В рассмотренном 
примере был движок баз данных Atomic. В версиях < 20.3 его еще не 
было. 


3) Вы можете иметь дело с реплицируемыми таблицами, тогда помимо 
метаданных на диске нужно перенести сложную структуру метанных из 
Zookeeper. 
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Движок Distributed 


Основная функциональность для создания шардов таблиц в ClickHouse. 


Позволяет горизонтально масштабировать и storage, и compute. 


Поскольку тяжелые вычисления (группировка, аггрегация) частично 
выполняются на шардах. 
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--ЗЕЦЕСТ * FROM distributed table 


Distributed 
SELECT * FROM local table— -SELECT * FROM local table— 


Replica Replica | ' Replica Replica 
4 н 
а: ' Replica 


Cm мож шт ---ь----- - -- ----- -- - -- - - - -- -- 
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Создадим Керіїсатед-таблицу на каждом узле. 
Макросы fshard), {герйса} указываются в конфиге каждого сервера. 


CREATE TABLE hits 3 ON CLUSTER "(cluster)" ( 
“Browser” String, 
`ClientID` UInt64, 
"EventDate' Date 
) 
ENGINE = ReplicatedMergeTree('/ch/tables/(shard)/hits_3', 'freplica)') 
PARTITION BY EventDate 
ORDER BY (EventDate, intHash32(ClientID)) 
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Создадим О5и1Битед-таблицу на каждом узле кластера (cluster) ”. 


CREATE TABLE hits 3 dist ON CLUSTER "£cluster) AS db1.hits 3 
ENGINE = Distributed('(cluster)', db1, hits 3, ClientID) 


Таким образом можно обращаться K любому узлу и HMETb доступ K 
данным всего кластера. 
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Distributed 
table 


Replicated 


tables аа 
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Функциональность INSERT SELECT 


GREATE TABLE destination ON CLUSTER remote server AS source 


02. INSERT INTO FUNCTION remote('127.0.0.1', currentDatabase(), destination) 


SELECT * FROM source 
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Функциональность INSERT SELECT 


Табличная функция remote: 
— создает неявную Distributed-Tabnuuy; 
— запрос выполняется над ней; 


INSERT SELECT: 
— создает пайплайн вычислений отдельно для INSERT n SELECT; 
-- склеивает их; 


Итог: 
— Данные передаются между серверами в Матіме-формате, то есть 
эффективно. 
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Копирование целого кластера 


Source cluster Destination cluster 


== Сору? = 
| > 
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Копирование целого кластера 


_ Source cluster | Distributed Destination cluster 
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Копирование целого кластера 


Выберем произвольный узел и создадим две Оізігіритеа-таблиць: 
— Первая смотрит на кластер зоигсе 
— Вторая смотрит на кластер destination 


INSERT INTO destination distributed 
SELECT * FROM source distributed; 
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Копирование целого кластера 


- Source cluster = Destination cluster 


Копирование целого кластера 


Ріѕііритеа-таблицы созданы на каждом узле обоих кластеров: 
— Выбираем любой узел из source кластера 
— Выбираем любой узел destination кластера 


INSERT INTO FUNCTION 


remote( '192.168.1.1', currentDatabase(), destination distributed) 


SELECT * FROM source distributed; 
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Но есть проблемы... 


— Что, если сеть моргнет при передаче данных? 


— Копирование таким способом производится "в один поток". 
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Единицы измерения данных 


— Гранула 

— Блок (Чанк) 
— Кусок 

— Партиция 
— Таблица 

— Шард 


— Кластер 


Решение 


Запустим отдельный INSERT SELECT для каждой партиции в исходной 
таблице. 


Если получили ошибку - удаляем партицию в destination таблице и 
повторяем операцию. 


Выглядит как алгоритм, поэтому этот процесс можно автоматизировать! 
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clickhouse-copier 


Утилита, входящая в стандартную поставку clickhouse, позволяющая 
— скопировать таблицу с одного кластера на другой; 
— перешардировать кластер 


clickhouse-copier умеет работать параллельно, используя Zookeeper для 
координации нескольких процессов 
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Конфигурация clickhouse-copier 


Описывается в формате xml. Нужно указать: 
— Узлы кластера Zookeeper 
— Конфигурацию логгера 


— Любые дополнительные настройки 


ы, HighLoad 
(HL) Ме. der ú 


Конфигурация задачи 


Описывается в формате xml. Нужно указать: 


— Конфигурацию source n destination кластера. 


— Полное имя source и destination таблици. 
— Движок destination таблици. 


— Новый ключ шардирования. 


— Условие для фильтрации данных при чтении. 


ы, HighLoad 
(HL) Hna ú 


Zookeeper 


/copier/task 


A A, (e 


A А А А 5 Е 
Source cluster : : í : Destination cluster 
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Запуск 


clickhouse-copier 
--daemon 
--config /path/to/config.xml 
--task-path /task/path/zookeeper 
--task-file /path/to/task/on/disk 
--task-upload-force 


--base-dir /path/to/dir 
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Сложности 


clickhouse-copier предполагает, что: 
-- Партиции не меняются в процессе. 


-- Схема таблиц сохраняется. 


При партиционировании таблицы по месяцам копировать можно все 
партиции, кроме текущей. 


Данные текущей партиции можно писать в оба кластера. 
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Рассматриваем алгоритм 


Для начала нужно выяснить, какие партиции нужно копировать. 


Для каждого шарда из ѕоигсе-кластера создадим Distributed-TabnuLy 
локально. 
И выполним запрос. 


SELECT DISTINCT $PARTITION KEY EXPRESSION$ AS partition 


FROM 1оса1. `.геаа shard 0.%ТАВҺЕ МАМЕ%” ORDER BY partition DESC 
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Рассматриваем алгоритм 


Пользователь может задать явно список подлежащих копированию 
партиций. 


Это делается в секции enabled. partitions в конфигурации задачи. 


<enabled partitions> 


<partition>2021</partition> 


</enabled partitions> 
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Процесс копирования 


Создадим destination-Tabnuuy: 
— Сделаем запрос SHOW CREATE TABLE на ѕоигсе-кластер; 


— Преобразуем, изменив ENGINE, на новый, полученный из описания 
задачи; 


— Выставим флажок, отвечающий за IF NOT EXISTS; 


Последнее важно, поскольку пользователь мог сам создать таблицу, 
если колонки ае{таНоп-таблицы отличаются. 
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Процесс копирования 


Проитерируемся по всем партициям и скопируем их. 


Сделаем запрос вида: 
INSERT INTO destination table distributed 


SELECT * FROM source table distributed 
WHERE PARTITION КЕУ-СУВВЕМТ PARTITION 
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Процесс копирования 


Таблица destination table, distributed смотрит Ha весь destination- 
кластер. 


У этой таблицы можно задать ключ шардирования в описании задачи; 


<sharding Кеу> 
гапа () 


</sharding key> 


Таким образом можно перешардировать кластер. 
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Проблема 


Разбиение по отдельным партициям не всегда хорошо работает. 


Живой пример - кластер Яндекс.Метрики, где одна партиция занимает 
сотни гигабайт. 


Копирование такого объема данных неизбежно обернется ошибкой 
и все скопированные данные текущей партиции придется удалить из 
ЧезипаНоп-таблицы. 
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уз 


y2 


yi 


График потребления диска на узле destination-knactepa 


time 
хі x2 x3 x4 
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Решение 


Отдельно копироваться должны не целые партиции, а их небольшие 
части (кусочки)! 


Парты? 


Нет. 
— Множество партов может меняться из-за процесса фоновых слияний. 


— Парт может быть достаточно большого размера. 
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Решение 


Как поделить партицию примерно на равные части? 


Посчитаем хзш от каждой строчки и возьмем остаток от деления на 
количество частей. 


Для ускорения будем считать хэш не от всей строчки, а только от 
первичного ключа. 


SELECT * FROM source table 
WHERE PARTITION KEY = CURRENT_PARTITION AND 
cityHash64(PRIMARY KEY) % N == 0 
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Альтернатива 


y таблицы можно указать ключ семплирования. 


Это специальная функциональность, чтобы делать запросы по 
некоторой части данных. 


Можем воспользоваться ей, задавая запросы вида: 


SELECT * FROM source table 
SAMPLE 1/N OFFSET GURRENT РТЕСЕ NUMBER/N 
WHERE PARTITION KEY = CURRENT_PARTITION 
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Конфигурация 


Пользователь может задать количество частей в конфиге задачи. 


<number of splits> 
42 


</number of splits> 
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Сложности 


Составнме части партиции могут копироваться параллельно. 


Что делать, если 9/10 частей партиции скопировались успешно, а при 
копировании последней вылетело исключение или любая другая 
ошибка? 


Удалять всю партицию совсем не хочется... 
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Возможное решение 


В случае неудачи можно запустить отдельный запрос вида: 
ALTER TABLE destination table DELETE 


WHERE PARTITION KEY = CURRENT. PARTITION AND 
cityHash64(PRIMARY KEY) % N == 10 


Но такой запрос будет выполняться долго, поскольку данные 


последнего кусочка партиции распределены неизвестным образом. 
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Текущее решение 


Будем копировать кусочки во вспомогательные таблицы рядом с 
основной таблицей. 


Например, если разбили исходную партицию на 10 частей, то получим 
10 таблиц. 


В і-ой таблице будут данные исходной таблицы, у которых хэш 
первичного ключа сравним сі по модулю 10. 
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Zookeeper 


/copier/task 


Source cluster Destination cluster 
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Объединение данных 


После успешного копирования партиции в auxiliary таблицы 
необходимо переместить данные в основную таблицу. 


ALTER TABLE destination table 
ATTACH PARTITION PARTITION NAME FROM auxiliary table 


Заметим, что в аихШшагу-таблице партиция имеет такое же имя. 
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Синхронизация 


Zookeer используется еще для многих вещей, например: 

-- Ограничение количества одновременно работающих процессов. 

— Mutual exclusion для каждого кусочка партиции. 

-- Хранения результатов копирования для каждого кусочка (кто, когда) 


— Хранения статуса копирования всех партиций таблицы. 
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Тестирование 


Не было бы возможным без нашей замечательной инфраструктуры CI. 


— Кластер ClickHouse поднимается в контейнерах. 


— Процессы соріег запускаются в случайных контейнерах. 


По завершении всех процессов проверяются хитрые инварианты. 
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Fault injection 


Очень дешевый способ для проверки отказоустойчивости программы. 
В тестах задается вероятность того, что в случайный момент времени: 
— Упадет копирование кусочка 


== Упадет слияние всех кусочков воедино 


Тестирование происходит 24/7... 
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Итог 


clickhouse-copier - отказоустойчивый инструмент, который позволяет 
копировать большие объемы данных ClickHouse. 


Настроил и забыл. 


С помощью него был скопирован не один кластер Яндекс.Метрики. 
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Спасибо! 


Контакты: 
Telegram: (Onikitamikhaylov 


email: jakalletticoyandex-team.ru 
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